16 research outputs found

    Corpus lingüísticos estruturados de grandes dimensións: metodoloxía e sistemas de recuperación de información

    Get PDF
    Tese defendida o 12 de Febreiro de 2010 na Facultade de Informática da Universidade da Coruña[Resumen] La reciente evolución de Internet ha permitido el acceso a un volumen de información enorme, pero toda esta no resulta útil si no existe una manera precisa de encontrar lo que se necesita en un momento dado, Por eso, casi paralelamente al crecimiento de Internet se han ido desarrollando sistemas de recuperación de información (RI) que permitían localizar la información relevante en cada caso, dando lugar a lo que hoy conocemos como buscadores. Pero uno de los principales problemas que presentan estos sistemas radica en que, en general, la información que utilizan está muy poco estructurada, lo que limita en cierto modo sus posibilidades: no se pueden delimitar secciones en los documentos, ni aplicar filtros de búsqueda, etc., es decir, solo se permite introducir una expresión de búsqueda que se intenta encontrar en toda la base documental. Debido a estas carencias, al mismo tiempo también se han ido desarrollando sistemas de RI que requerían que la información estuviera organizada de algún modo particular. Estos sistemas no están diseñados para hacer búsquedas en Internet en general, sino que actúan sobre un conjunto más grande o más pequeño de información disponible y ofrecen más oportunidades de búsqueda. Estas dos vertientes evolutivas, la de utilizar información desestructurada y la de tenerla organizada, llegaron a la actualidad propiciando la aparición de distintas herramientas de búsqueda. Por un lado, tenemos los buscadores de Internet, que permiten localizar documentos que satisfacen una búsqueda concreta y, por la otra, los sistemas que utilizan información estructurada, que cubren aspectos como la obtención de datos de clientes, facturación, control de stock, etc. Finalmente, incluso hai entornos que pueden combinar en diferente grado estas dos vertientes (herramientas de minería de datos, sistemas de predicción, etc.) En este trabajo tratamos un caso particular de los sistemas de RI que utilizan información estructurada: el de los sistemas lingüísticos que trabajan con grandes colecciones de documentos (corpus), lo que enmarca la presente tesis de doctorado dentro de la lingüística computacional y, más concretamente, en la lingüística de corpus. Aunque en este campo también hai un ámplio espectro de posibilidades, nos centramos en aquellos en los que la información que necesitan los usuarios, normalmente lingüistas, está relacionada con la frecuencia de ocurrencia de palabras o con la visualización de ejemplos en su contexto. La evolución de estos sistemas ha sido practicamente simultánea al desarrollo de la informática. Desde las primeras herramientas de búsqueda monolíticas que utilizaban colecciones textuales, consideradas ahora de reducidas dimensiones, se ha ido evolucionando gracias al incremento de la capacidad de los ordenadores, hasta los actuales sistemas de consulta a través de la red que manejan corpus de gran tamaño. Nos centramos en estos últimos, analizando las diferentes posibilidades y tecnologías disponibles actualmente para desarrollarlos pero, además, tambien hacemos una propuesta metodológica genérica para la creación de corpus, que son el sustento de datos de estos sistemas de RI. Ofrecemos, pues, una visión de conjunto que abarca, tanto la construcción de corpus como su posterior explotación, teniendo siempre en mente la utilización de los estándares más actuales. Además, ilustramos nuestras propuestas genéricas con su aplicación al caso concreto del Corpus de Referencia do Galego Actual (CORGA), desarrollado en el Centro Ramón Piñeiro para a Investigación en Humanidades, lo que permite aclarar cómo se concretan los conceptos abstractos en un caso práctico

    Avaliación dun etiquetador automático estatístico para o galego actual: Xiada

    Get PDF
    We evaluate, from a linguistic point of view, a statistical automatic labelling machine, which is explained together by the Center Ramón Piñeiro on Humanities Research and the COLE Group of Vigo and La Coruña Universities, and which also set aside for labelling the papers of Present Galician Reference Corpus so as to provide tools and resources for the computational linguistic analysis of Present Galician.Neste traballo avaliamos, dende o punto de vista lingüístico, un etiquetador automático estatístico, desenvolto conxuntamente polo Centro Ramón Piñeiro para a Investigación en Humanidades e o Grupo COLE das Universidades de Vigo e A Coruña, destinado a etiquetar os documentos do Corpus de Referencia do Galego Actual co obxecto de proporcionar recursos e ferramentas para a análise lingüística computacional do galego actual

    Metodología para la construcción de córpora textuales estructurados basados en XML

    Get PDF
    En este trabajo analizamos los aspectos más relevantes para definir una metodología que posibilite la construcción de córpora textuales estructurados basados en XML.In this article we discuss the most important issues in the definition of a methodology for the development of structured text corpora based on XML.Parcialmente financiado por el Ministerio de Educación y Ciencia (TIN2004-07246-C03-01), Xunta de Galicia (PGIDIT05PXIC30501PN) y Universidade de Vigo

    Compilation methods of minimal acyclic finite-state automata for large dictionaries.

    No full text
    [Abstract] We present a reflection on the evolution of the different methods for constructing minimal deterministic acyclic finite-state automata from a finite set of words. We outline the most important methods, including the traditional ones (which consist of the combination of two phases: insertion of words and minimization of the partial automaton) and the incremental algorithms (which add new words one by one and minimize the resulting automaton on-the-fly, being much faster and having significantly lower memory requirements). We analyze their main features in order to provide some improvements for incremental constructions, and a general architecture that is needed to implement large dictionaries in natural language processing (NLP) applications.European Commission; 1FD97-0047-C04-02Ministerio de Educación y Ciencia; TIC2000-0370-C02-01Xunta de Galicia; PGIDT99XI10502

    Formal methods of tokenization for part-of-speech tagging

    No full text
    [Abstract] One of the most important prior tasks for robust part-of-speech tagging is the correct tokenization or segmentation of the texts. This task can involve processes which are much more complex than the simple identification of the diferent sentences in the text and each of their individual components, but it is often obviated in many current applications. Nevertheless, this preprocessing step is an indispensable task in practice, and it is particularly dificult to tackle it with scientific precision with-out falling repeatedly in the analysis of the specific casuistry of every phenomenon detected. In this work, we have developed a scheme of preprocessing oriented towards the disambiguation and robust tagging of Galician. Nevertheless, it is a proposal of a general architecture that can be applied to other languages, such as Spanish, with very slight modifications.European Commission; 1FD97-0047-C04-02Xunta de Galicia; PGIDT99XI10502BMinisterio de Educación y Ciencia; TIC2000-0370-C02-0

    Etiquetación robusta del lenguaje natural : preprocesamiento y segmentación

    No full text
    Una de las tareas previas más importantes para la etiquetación robusta del lenguaje natural es la correcta segmentación o preprocesamiento de los textos. Esta fase, que puede involucrar a procesos mucho más complejos que la simple identificación de las diferentes frases del texto y de cada uno de sus componentes individuales, es a menudo obviada en muchos de los desarrollos actuales. A pesar de esto, se trata de una tarea de una enorme importancia práctica y abordarla con pleno rigor científico, sin caer repetidamente en el análisis de la casuística particular de cada fenómeno detectado, es una labor que resulta especialmente compleja. En este trabajo hemos desarrollado un esquema de preprocesamiento orientado a la desambigüación y etiquetación robusta del gallego. No obstante, se trata de una propuesta de arquitectura general que puede ser aplicada a otros idiomas, como por ejemplo el español, con modificaciones muy ligeras.Este trabajo ha sido parcialmente financiado por la Unión Europea (bajo el proyecto FEDER 1FD97-0047-C04-02), por el Ministerio de Educación y Ciencia (bajo el proyecto TIC2000-0370-C02-01), y por la Xunta de Galicia (bajo el proyecto PGIDT99XI10502B)

    Análisis sintáctico estocástico y paralelismo

    No full text
    Los algoritmos de análisis sintáctico tipo CYK presentan una naturaleza intrínsecamente paralela: existen muchas celdas de la tabla de análisis que pueden ser calculadas simultáneamente. En este trabajo se realiza un estudio sobre cual debe ser la técnica de paralelismo adecuada para obtener un rendimiento óptimo del algoritmo CYK extendido, un algoritmo de análisis sintáctico estocástico que mantiene el mismo nivel de expresividad de la gramática original y hace más viables las posteriores tareas de parsing robusto. Se consideran dos métodos de paralelización: memoria distribuida y memoria compartida. Los excelentes resultados obtenidos con el segundo de ellos convierten a este algoritmo en una alternativa que podría competir con otras técnicas de parsing mucho más eficientes a priori.Este trabajo ha sido parcialmente financiado por el proyecto 1FD97-0047-C04-02 del FEDER y por el proyecto PGIDT99XI10502B de la Xunta de Galici

    Normalización de términos multipalabra mediante pares de dependencia sintáctica

    No full text
    En este artículo se presentan dos nuevas técnicas para la indexación de textos escritos en español. A nivel de palabra, proponemos la utilización de la morfología derivativa para obtener conjuntos de palabras relacionadas semánticamente. Esta técnica se combina, a nivel de frase, con la utilización de una gramática aproximada, lo que nos permitirá normalizar a una forma base común las variantes sintácticas y morfosintácticas de un término multipalabra. Dichos métodos han sido evaluados sobre un corpus de documentos periodísticos, obteniendo unos resultados que muestran una mejora considerable con respecto a los métodos clásicos de indexación.Este trabajo ha sido financiado en parte por el Plan Nacional de Investigación Científica, Desarrollo e Innovación Tecnológica (TIC2000-0370-C02-01), los fondos FEDER de la UE (1FD97-0047-C04-02) y la Xunta de Galicia (PGIDT99XI10502B)

    Construcción de sistemas de recuperación de información sobre córpora textuales estructurados de grandes dimensiones

    No full text
    En este trabajo se evalúan las principales tecnologías para el desarrollo de sistemas de recuperación de información basados en córpora estructurados de grandes dimensiones: Oracle (Oracle Corporation, 8/3/2005) y Tamino (Software AG Company, 8/3/2005).In this paper we evaluate main technologies to develop Information Retrieval Systems based on large text structured corpora: Oracle (Oracle Corporation, 8/3/2005) and Tamino (Software AG Company, 8/3/2005).Parcialmente financiado por el Ministerio de Educación y Ciencia (MEC) y FEDER (TIN2004-07246-C02-01 y TIN2004-07246-C02-02), por MEC (HF2002-81), y por la Xunta de Galicia (PGIDIT02PXIB30501PR, PGIDIT02SIN01E y PGIDIT03DIN30501PR)

    Diseño de un entorno visualizado para la docencia práctica de Seguridad en Sistemas de Información

    No full text
    La posibilidad de que los alumnos de materias relacionadas con la seguridad informática puedan realizar sin restricciones prácticas sobre sistemas y redes reales tiene un valor pedagógico indudable, ya que les permite enfrentarse a situaciones reales y resolver problemas que en las clases teóricas apenas se llegan siquiera a describir. Sin embargo, estas actividades conllevan una serie de dificultades técnicas y de disponibilidad de recursos, junto con otras derivadas de la propia disposición del alumno a la hora de enfrentarse a ellas. En este trabajo describimos un entorno de prácticas basado en el uso de equipos y redes virtualizadas y en el empleo de herramientas de seguridad de código abierto, que supera parte de los problemas inherentes a la realización de ejercicios sobre sistemas reales. Presentamos también el diseño y desarrollo de una serie de actividades de laboratorio que hacen uso del entorno descrito y que pretenden promover el trabajo autónomo en la resolución de problemas relacionados con la seguridad y la protección de sistemas
    corecore